在决策问题(例如多臂强盗)中,代理商通过优化某些反馈来顺序学习。尽管对平均奖励标准进行了广泛的研究,但其他反映对不利结果的措施,例如均值变化或有条件的危险价值(CVAR),对关键应用程序(医疗保健,农业)可能会引起人们的关注。在没有上下文信息的情况下,已经提出了在强盗反馈下采取此类风险感知措施的算法。在这项工作中,我们研究了上下文匪徒,通过最小化凸丢失,可以将这种风险度量作为上下文的线性函数引起。适合此框架的一个典型示例是预期度量,它作为不对称最小二乘问题的解决方案获得。使用超级马特林加尔的混合物方法,我们得出置信序列以估计此类风险度量。然后,我们提出一种乐观的UCB算法来学习最佳的风险感知动作,后悔的保证与广义线性匪徒相似。这种方法需要在每一轮算法上解决凸问题,我们可以通过仅允许通过在线梯度下降获得的近似解决方案来放松,以稍高的遗憾。我们通过评估数值实验的所得算法来结束。
translated by 谷歌翻译
我们考虑涉及一组代理的在线估计问题。每个代理都可以访问(个人)流程,该过程从实数分布中生成样本,并试图估算其平均值。我们研究了某些分布具有相同均值的情况,并且允许代理人积极查询其他代理商的信息。目的是设计一种算法,该算法使每个代理都能够通过与其他代理商进行沟通来改善其平均估计。平均值的均值和分布数量尚不清楚,这使得任务是非平凡的。我们介绍了一种新颖的协作策略,以解决这个在线个性化的平均估计问题。我们分析其时间复杂性,并引入在数值实验中享有良好性能的变体。我们还将我们的方法扩展到了具有相似手段的代理商群体寻求估算其群集的平均值的环境。
translated by 谷歌翻译
通过加强学习解决现实世界的顺序决策问题(RL)通常始于使用模拟真实条件的模拟环境。我们为现实的农作物管理任务提供了一种新颖的开源RL环境。 Gym-DSSAT是高保真作物模拟器的农业技术转移决策支持系统(DSSAT)的健身房界面。在过去的30年中,DSSAT已发展,并被农学家广泛认可。 Gym-DSSAT带有基于现实世界玉米实验的预定义仿真。环境与任何健身房环境一样易于使用。我们使用基本RL算法提供性能基准。我们还简要概述了用Fortran编写的单片DSSAT模拟器如何变成Python RL环境。我们的方法是通用的,可以应用于类似的模拟器。我们报告了非常初步的实验结果,这表明RL可以帮助研究人员改善受精和灌溉实践的可持续性。
translated by 谷歌翻译
我们重新审视混合技术的方法,也称为拉普拉斯法,以研究通用指数家族中的浓度现象。将与家族的对数分区功能相关的Bregman差异的性质与超级木制混合物的方法相关联,我们建立了一个通用的结合,以控制家族参数与参数的有限样本估算之间的Bregman差异。我们的界限是时间均匀的,并且看起来很大,将经典信息增益扩展到指数式家庭,我们称之为Bregman信息收益。对于从业者而言,我们实例化了这本小说绑定到几个古典家庭,例如高斯,伯努利,指数,威布尔,帕雷托,帕尔托,泊松和卡方和卡方,从而产生了置信度的明确形式和布雷格曼信息的收益。我们从数值上进一步将所得的置信度界限与最先进的替代方案进行比较,以使其均匀浓度,并表明这种新颖的方法会产生竞争结果。最后,我们强调了集中界对某些说明性应用的好处。
translated by 谷歌翻译
我们考虑由一组一维系列指数分布指定的多武装强盗问题,其具有单向结构的一组一维系列分布。我们介绍了IMED-UB,通过适应本田和Takemura引入的索引最小经验分解(IMED)算法来实现IMED-UB,这是一种最佳地利用单峰结构的算法[2015]。由于我们的证明技术,我们能够提供对IMED-UB算法的简洁有限时间分析。数值实验表明,IMED-UB与最先进的算法竞争。
translated by 谷歌翻译
在臂分布的标准假设下广泛研究了随机多臂强盗问题(例如,用已知的支持,指数家庭等)。这些假设适用于许多现实世界问题,但有时他们需要知识(例如,在尾部上),从业者可能无法精确访问,提高强盗算法的鲁棒性的问题,以模拟拼盘。在本文中,我们研究了一种通用的Dirichlet采样(DS)算法,基于通过重新采样的武器观测和数​​据相关的探索奖励计算的经验指标的成对比较。我们表明,当该策略的界限和对数后悔具有轻度分量度条件的半界分布时,这种策略的不同变体达到了可证明的最佳遗憾。我们还表明,一项简单的调整在大类无界分布方面实现了坚固性,其成本比对数渐近的遗憾略差。我们终于提供了数字实验,展示了合成农业数据的决策问题中DS的优点。
translated by 谷歌翻译
我们展示了具有高斯流程先验的非线性回归模型中产生的高维单模式后分布的示例后措施浓缩。基于梯度或随机步行步骤,对一般MCMC方案的反示例持有,该理论用于大都市 - 危机调整后的方法,例如PCN和MALA。
translated by 谷歌翻译
在全球范围内消除语言障碍的目标的驱动下,机器翻译已巩固自己是当今人工智能研究的关键重点。但是,这样的努力围绕着一小部分语言结合在一起,留下了绝大多数低资源的语言。在确保安全,高质量的结果的同时,在牢记道德考虑的同时,打破200个语言障碍需要什么?没有留下的语言,我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后,我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说,我们开发了一种有条件的计算模型,基于专家的稀疏混合物,该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进,以抵消数千个任务的培训。至关重要的是,我们使用人类翻译的基准,Flores-200评估了40,000多种不同的翻译方向的性能,并将人类评估与新型毒性基准相结合,涵盖Flores-200的所有语言,以评估翻译安全性。我们的模型相对于先前的最新技术,实现了44%BLEU的改善,为实现通用翻译系统奠定了重要的基础。最后,我们开源此工作中描述的所有贡献,可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。
translated by 谷歌翻译
文本归一化是缺乏严格拼写惯例的低资源语言的至关重要技术。迄今为止,低资源的文本归一化依赖于手工制作的规则,这些规则被认为比神经方法更有效。在本文中,我们研究了Ligurian(一种濒临灭绝的浪漫语言)的文本正常化情况。我们收集了4,394个Ligurian句子,并配对其标准化版本,也是Ligurian的第一个单语语料库。我们表明,尽管有少量可用的数据,但可以训练基于紧凑的变压器的模型,以通过使用反射和适当的令牌化来达到非常低的错误率。我们的数据集向公众发布。
translated by 谷歌翻译
Maillard(2013)的博士论文呈现了$ k $武装匪徒问题的随机算法。我们呼叫Maillard采样(MS)的这种缺少已知的算法计算以封闭形式选择每个臂的概率,这对于从强盗数据的反事实评估有用,而是缺乏来自汤普森采样,这是一种广泛采用的匪徒行业算法。通过这种优点,我们重新审视MS并进行改进的分析,以表明它实现了渐近最优性和$ \ SQRT {kt \ log {k}} $ minimax后悔绑定在$ t $是时间界限,它与之匹配标准渐近最佳的UCB的性能。然后,我们提出了一个称为MS $ ^ + $的MS的变体,这将改善其最小绑定到$ \ sqrt {kt \ log {k}} $,而不会失去渐近最优值。 $ ^ + $ MS也可以调整为攻击性(即,较少的探索),而不会失去理论担保,从现有强盗算法无法使用的独特功能。我们的数值评估显示了MS $ ^ + $的有效性。
translated by 谷歌翻译